We propose the fully differentiable $\nabla$-RANSAC.It predicts the inlier probabilities of the input data points, exploits the predictions in a guided sampler, and estimates the model parameters (e.g., fundamental matrix) and its quality while propagating the gradients through the entire procedure. The random sampler in $\nabla$-RANSAC is based on a clever re-parametrization strategy, i.e.\ the Gumbel Softmax sampler, that allows propagating the gradients directly into the subsequent differentiable minimal solver. The model quality function marginalizes over the scores from all models estimated within $\nabla$-RANSAC to guide the network learning accurate and useful probabilities.$\nabla$-RANSAC is the first to unlock the end-to-end training of geometric estimation pipelines, containing feature detection, matching and RANSAC-like randomized robust estimation. As a proof of its potential, we train $\nabla$-RANSAC together with LoFTR, i.e. a recent detector-free feature matcher, to find reliable correspondences in an end-to-end manner. We test $\nabla$-RANSAC on a number of real-world datasets on fundamental and essential matrix estimation. It is superior to the state-of-the-art in terms of accuracy while being among the fastest methods. The code and trained models will be made public.
translated by 谷歌翻译
我们提出了HRF-NET,这是一种基于整体辐射场的新型视图合成方法,该方法使用一组稀疏输入来呈现新视图。最近的概括视图合成方法还利用了光辉场,但渲染速度不是实时的。现有的方法可以有效地训练和呈现新颖的观点,但它们无法概括地看不到场景。我们的方法解决了用于概括视图合成的实时渲染问题,并由两个主要阶段组成:整体辐射场预测指标和基于卷积的神经渲染器。该架构不仅基于隐式神经场的一致场景几何形状,而且还可以使用单个GPU有效地呈现新视图。我们首先在DTU数据集的多个3D场景上训练HRF-NET,并且网络只能仅使用光度损耗就看不见的真实和合成数据产生合理的新视图。此外,我们的方法可以利用单个场景的密集参考图像集来产生准确的新颖视图,而无需依赖其他明确表示,并且仍然保持了预训练模型的高速渲染。实验结果表明,HRF-NET优于各种合成和真实数据集的最先进的神经渲染方法。
translated by 谷歌翻译
我们研究了在紧邻人类机器人相互作用的背景下,最先进的人关键点探测器的性能。在这种情况下的检测是具体的,因为只有手和躯干等身体部位的子集在视野中。特别是(i)我们从近距离图像的角度调查了具有人类姿势注释的现有数据集,并准备并使公开可用的新人(HICP)数据集; (ii)我们在此数据集上进行定量和定性比较人类全身2D关键点检测方法(openpose,mmpose,onphapose,detectron2); (iii)由于对手指的准确检测对于使用交接的应用至关重要,因此我们评估了介质手工检测器的性能; (iv)我们在头部上带有RGB-D摄像头的人形机器人上部署算法,并在3D Human KeyPoint检测中评估性能。运动捕获系统用作参考。在紧邻近端的最佳性能全身关键点探测器是mmpose和字母,但两者都难以检测手指。因此,我们提出了在单个框架中为人体和手介载体的mmpose或字母组合的组合,提供了最准确,最强大的检测。我们还分析了单个探测器的故障模式 - 例如,图像中人的头部缺失在多大程度上降低了性能。最后,我们在一个场景中演示了框架,其中类人类机器人与人相互作用的人类机器人使用检测到的3D关键点进行全身避免动作。
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
我们提出了深刻的Magsac ++结合了传统和深度强大的估算的优势。我们介绍了一种新的损失功能,可利用部分染色的协调特征,例如筛选,以几何实际合理的方式利用部分染色的协调功能。新损失有助于学习有关底层场景几何的高阶信息。此外,我们为Ransac提出了一个新的采样器,总是选择具有最概率的最高概率的样本。在每次不成功的迭代之后,概率通过贝叶斯方法以原则方式更新。深网络的预测被利用在采样器内部。从新的损失,拟议的采样器和一些技术进步受益,Deep Magsac ++在来自公共可用数据集的成千上万的图像对上的准确性和运行方面都优于最先进的和基本矩阵估计。
translated by 谷歌翻译
在本文中,我们在短PCCC中呈现点云颜色恒定,这是利用点云的照明色度估计算法。我们利用飞行时间(TOF)传感器捕获的深度信息与RGB传感器刚性安装,并形成一个6D云,其中每个点包含坐标和RGB强度,指出为(x,y,z,r,g,b)。PCCC将注意力架构应用于色彩恒定问题,导出照明矢量点明智,然后制定关于全局照明色度的全局决定。在两个流行的RGB-D数据集上,我们使用照明信息以及新颖的基准延伸,PCCC比最先进的算法获得更低的错误。我们的方法简单且快速,仅需要16 * 16尺寸的输入和超过500 FPS的速度,包括建立点云和净推理的成本。
translated by 谷歌翻译
在许多计算机视觉分类任务中,测试时间的类前沿通常与培训集上的前沿不同。在此先前换档的情况下,必须对等式进行调整,以保持接近最佳性能。本文分析了对新前锋的概率分类器改编的方法,并在未标记的测试集中估算新前锋。我们提出了一种基于混淆矩阵的现有估计方法的一种新的方法,包括判定概率的不一致估计和困惑矩阵导致估计的前沿中的负值。细粒度图像分类数据集的实验提供了对先前移位估计和分类器适应的最佳实践的洞察,并表明所提出的方法实现了最先进的结果。将最佳做法应用于具有自然不平衡的前沿的两个任务,从Web爬网和植物物种分类中学习,分别将识别准确性提高1.1%和3.4%。
translated by 谷歌翻译
We present DeblurGAN, an end-to-end learned method for motion deblurring. The learning is based on a conditional GAN and the content loss . DeblurGAN achieves state-of-the art performance both in the structural similarity measure and visual appearance. The quality of the deblurring model is also evaluated in a novel way on a real-world problem -object detection on (de-)blurred images. The method is 5 times faster than the closest competitor -Deep-Deblur [25]. We also introduce a novel method for generating synthetic motion blurred images from sharp ones, allowing realistic dataset augmentation.The model, code and the dataset are available at https://github.com/KupynOrest/DeblurGAN
translated by 谷歌翻译
本文介绍了一个数据集,用于培训和评估方法,以估算由标准RGB摄像机捕获的任务演示中手持工具的6D姿势。尽管6D姿势估计方法取得了重大进展,但它们的性能通常受到严重遮挡的对象的限制,这在模仿学习中是一个常见的情况,而操纵手通常会部分遮住对象。当前,缺乏数据集可以使这些条件的稳健6D姿势估计方法开发。为了克服这个问题,我们收集了一个新的数据集(IMITROB),该数据集针对模仿学习和其他人类持有工具并执行任务的其他应用中的6D姿势估计。该数据集包含三个不同工具和六个操纵任务的图像序列,这些任务具有两个相机观点,四个人类受试者和左/右手。每个图像都伴随着由HTC Vive运动跟踪设备获得的6D对象姿势的准确地面真相测量。通过训练和评估各种设置中的最新6D对象估计方法(DOPE)来证明数据集的使用。数据集和代码可在http://imitrob.ciirc.cvut.cz/imitrobdataset.php上公开获得。
translated by 谷歌翻译
我们考虑了与视图合成的重大视点变化下的两视图匹配的问题。我们提出了两种新颖的方法,将视图合成开销最小化。第一个名为denseaffnet,使用了affnet的密集仿射形状估计值,它允许其划分图像,仅使用单个仿射图对每个分区进行整流。第二个名为Depthaffnet,结合了深度图和仿射形状估算的信息,以生成不同图像分区的不同整体构图仿射图。Denseaffnet比最先进的速度快,并且在通用场景上更准确。Depthaffnet在包含大平面的场景上与最先进的状态相提并论。评估是在3个公共数据集上执行的-EVD数据集,强烈的观点更改数据集和IMC光仪数据集。
translated by 谷歌翻译